vGPU设备实践

功能概述

随着虚拟化与云计算技术的快速发展,越来越多的用户将应用迁移到云上。在这个过程中,用户希望一些特定的业务场景既能够在云环境中获得灵活、高效的资源交付能力,又能够获取与物理机无异的资源计算性能。GPU作为一种资源设备,近几年来随着大数据、人工智能等深度学习相关应用的深入,这一技术在云中的应用需求日益加深。

ZStack Cloud云平台支持vGPU功能,通过GPU虚拟化技术,将物理GPU切割成更细粒度的 vGPU,形成vGPU资源池。用户可使用vGPU规格快速创建轻量的vGPU云主机,实现更灵活弹性的资源部署、提高资源利用率、以及节约成本。该功能适用于云游戏、VDI、VR/AR、AI推理以及机器学习教学等轻量级GPU计算场景。

支持对以下型号显卡进行虚拟化切割:

NVIDIA系列 AMD系列
Tesla T4 FirePro S7150
Tesla M10/M60 FirePro S7150X2
Tesla P100/P40/P6/P4 FirePro S7100X
RTX 6000/8000 FirePro S9050
Tesla V100 FirePro S9150
NVIDIA A系列 NULL

更多请参考NVIDIA官方文档,查询在GPU卡规格中查询是否支持vGPU。

最佳实践

  • 物理机虚拟化GPU时选择vGPU型号时,需要根据使用目的以及云主机的计算量来进行选择合适的vGPU型号,一般可使用的vGPU型号与获取的License类型有关。
  • 每次VGPU的云主机运行的时候都会向License服务器发起License授权请求,要保证License服务器正常使用,否则云主机有可能不能正常加载授权。当云主机处于关闭状态时不占用任何GRID License。

注意事项

  • 确保物理机BIOS中开启Intel VT-d或AMD IOMMU功能,且物理机内核已开启IOMMU支持,且在物理机界面也同样需要开启IOMMU开关。
  • 确保物理机BIOS中开启SR-IOV和Memory Mapped I/O above 4GB功能(开启或关闭64位设备在大于4G地址空间的解码)。
  • 确保全局设置中允许云主机热插拔GPU设备,若热插拔时出现硬件兼容性错误,或不支持该硬件设备时,建议关闭此功能。
  • 确保高级设置云主机Hyper-V开关状态为false,否则云主机无法正常加载AMD vGPU驱动。
  • 确保云主机CPU模式为host-passthrough。
  • 获取相关驱动程序,相关驱动以及安装方法请联系GPU设备提供厂商获取帮助。
  • NVIDIA vGPU功能依赖CentOS 7.6版本内核,需使用c76版本ZStack ISO镜像版本安装 ,内核版本、QEMU版本需要v2.0及以上版本支持。

  • NVIDIA A系列显卡需要云平台升级至4.4.24及以上版本,物理机内核版本需要4.18.0以上 ,物理机gcc版本需要升级至8.3.1

results matching ""

    No results matching ""